Machine learning là gì? Các công bố khoa học về Machine learning
Machine learning là một lĩnh vực trong trí tuệ nhân tạo (AI) mà nghiên cứu và phát triển các thuật toán và mô hình để cho máy tính tự động học hỏi và cải thiện ...
Machine learning là một lĩnh vực trong trí tuệ nhân tạo (AI) mà nghiên cứu và phát triển các thuật toán và mô hình để cho máy tính tự động học hỏi và cải thiện từ dữ liệu mà không cần được lập trình một cách cụ thể. Mục tiêu của machine learning là dự đoán, phân loại hoặc xử lý các tác vụ một cách tự động mà không cần phải được lập trình trực tiếp. Machine learning sử dụng các phương pháp và kỹ thuật thống kê, toán học và lập trình để xác định các mô hình và thuật toán mà máy tính có thể học từ dữ liệu và sử dụng kiến thức đã học để làm việc với các dữ liệu mới.
Machine learning dựa trên việc máy tính học từ dữ liệu thông qua các thuật toán và mô hình. Quá trình học của máy tính trong machine learning thường diễn ra thông qua các bước sau:
1. Tiền xử lý dữ liệu: Dữ liệu đầu vào thường cần được tiền xử lý để làm sạch, chuẩn hóa và trích xuất đặc trưng.
2. Lựa chọn mô hình: Machine learning sử dụng nhiều loại mô hình như học có giám sát (supervised learning), học không giám sát (unsupervised learning), học bán giám sát (semi-supervised learning), và học sâu (deep learning). Lựa chọn mô hình phù hợp là quan trọng để đạt được kết quả tốt.
3. Huấn luyện (training) mô hình: Quá trình huấn luyện sử dụng tập dữ liệu đầu vào đã được gắn nhãn (dữ liệu đầu vào đã được gán nhãn với kết quả mong muốn) để máy tính học từ dữ liệu đó. Trong quá trình này, mô hình cập nhật các tham số của nó để tối ưu hóa hiệu suất dự đoán.
4. Đánh giá mô hình: Sau khi huấn luyện, mô hình được đánh giá bằng cách sử dụng tập dữ liệu thử nghiệm (test data) hoặc sử dụng các phương pháp đánh giá khác. Đánh giá mô hình giúp xác định độ chính xác và hiệu suất của mô hình.
5. Điều chỉnh và tinh chỉnh mô hình: Nếu mô hình không đạt hiệu suất mong muốn, ta có thể điều chỉnh tham số của mô hình, chọn các thuật toán khác hoặc thay đổi phương pháp tiền xử lý dữ liệu để tăng cường hiệu suất.
6. Dự đoán và ứng dụng: Sau khi mô hình đã được đào tạo và đánh giá, nó có thể được sử dụng để dự đoán các điểm dữ liệu mới và áp dụng vào các tác vụ thực tế.
Machine learning được áp dụng rộng rãi trong nhiều lĩnh vực như nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên, nhận biết giọng nói, khuyến nghị sản phẩm, phân loại email spam, tự động lái xe và nhiều ứng dụng khác.
Danh sách công bố khoa học về chủ đề "machine learning":
Học máy (Machine learning) nghiên cứu vấn đề làm thế nào để xây dựng các hệ thống máy tính tự động cải thiện qua kinh nghiệm. Đây là một trong những lĩnh vực kỹ thuật phát triển nhanh chóng hiện nay, nằm tại giao điểm của khoa học máy tính và thống kê, và là cốt lõi của trí tuệ nhân tạo và khoa học dữ liệu. Tiến bộ gần đây trong học máy được thúc đẩy bởi sự phát triển của các thuật toán và lý thuyết học mới cùng với sự bùng nổ liên tục trong việc sẵn có dữ liệu trực tuyến và khả năng tính toán chi phí thấp. Việc áp dụng các phương pháp học máy dựa trên dữ liệu đã xuất hiện trong khoa học, công nghệ và thương mại, dẫn đến việc ra quyết định dựa trên bằng chứng trong nhiều lĩnh vực cuộc sống, bao gồm chăm sóc sức khỏe, sản xuất, giáo dục, mô hình tài chính, cảnh sát và tiếp thị.
Có nhiều khía cạnh có thể ảnh hưởng đến hiệu suất đạt được bởi các hệ thống học hiện tại. Đã có báo cáo rằng một trong những khía cạnh này liên quan đến sự mất cân bằng lớp, trong đó các ví dụ trong dữ liệu huấn luyện thuộc về một lớp nào đó vượt trội số lượng so với các ví dụ thuộc lớp khác. Trong tình huống này, xảy ra trong dữ liệu thế giới thực mô tả một sự kiện hiếm nhưng quan trọng, hệ thống học có thể gặp khó khăn trong việc học khái niệm liên quan đến lớp thiểu số. Trong nghiên cứu này, chúng tôi thực hiện một đánh giá thực nghiệm rộng rãi với mười phương pháp, trong đó ba phương pháp do các tác giả đề xuất, nhằm giải quyết vấn đề mất cân bằng lớp trong mười ba tập dữ liệu UCI. Các thí nghiệm của chúng tôi cung cấp bằng chứng rằng sự mất cân bằng lớp không làm giảm hiệu suất của các hệ thống học một cách hệ thống. Thực tế, vấn đề dường như liên quan đến việc học với quá ít ví dụ thuộc lớp thiểu số trong bối cảnh có các yếu tố phức tạp khác, chẳng hạn như sự chồng chéo lớp. Hai phương pháp do chúng tôi đề xuất xử lý trực tiếp các điều kiện này, kết hợp một phương pháp tăng mẫu đã biết với các phương pháp làm sạch dữ liệu nhằm tạo ra các cụm lớp được định nghĩa rõ hơn. Các thí nghiệm so sánh của chúng tôi cho thấy, nói chung, các phương pháp tăng mẫu cung cấp kết quả chính xác hơn so với các phương pháp giảm mẫu khi xem xét diện tích dưới đường cong ROC (AUC). Kết quả này dường như mâu thuẫn với các kết quả được công bố trước đó trong tài liệu. Hai phương pháp mà chúng tôi đề xuất, Smote + Tomek và Smote + ENN, đã trình bày kết quả rất tốt cho các tập dữ liệu có số lượng ví dụ dương nhỏ. Hơn nữa, phương pháp tăng mẫu ngẫu nhiên, một phương pháp rất đơn giản, lại rất cạnh tranh so với các phương pháp tăng mẫu phức tạp hơn. Vì các phương pháp tăng mẫu cung cấp kết quả hiệu suất rất tốt, chúng tôi cũng đo lường độ phức tạp cú pháp của các cây quyết định được tạo ra từ dữ liệu đã tăng mẫu. Kết quả của chúng tôi cho thấy rằng các cây này thường phức tạp hơn so với những cây được tạo ra từ dữ liệu gốc. Tăng mẫu ngẫu nhiên thường tạo ra sự gia tăng nhỏ nhất về số lượng quy tắc được tạo ra và Smote + ENN có sự gia tăng nhỏ nhất về số lượng điều kiện trung bình trên mỗi quy tắc, khi được so sánh giữa các phương pháp tăng mẫu được điều tra.
- 1
- 2
- 3
- 4
- 5
- 6
- 10